2 research outputs found

    Étude des méthodes de la recherche d'information et de l'indexation sur les documents électroniques (cas de la langue arabe)

    No full text
    Cette thèse s'inscrit dans le cadre général de la recherche d'information, et plus précisément dans les méthodes et approches d'indexation des documents. Nous avons étudié, identifié et expliqué les limitations et les problèmes de la recherche d'information, en langue arabe, lors de l'usage des moteurs de recherche demeurant "standards" basés sur le principe de comparaison des mots clés le "keyword matching" ( Google, Yahoo, et Idrisi). Nous avons effectué une série d'expériences sur des documents juridiques arabes extraits du journal officiel libanais. Nous avons adopté les techniques de calcul des taux de rappel et de précision comme critères de comparaison afin d'identifier les limitations de cette méthode. Ces expérimentations ont bien confirmé que les spécificités de la langue arabe rendent la méthode de "keyword matching" insatisfaisante. Puis nous avons utilisé une méthode d'indexation purement statistique qui est la méthode N-gramme. Nous avons développé un logiciel en VB.Net qui permet d'utiliser les différentes formules de similarité et d'indexation et de les appliquer sur le corpus de test (Base de données). La méthode de représentation N-Gramme que nous avons utilisée, est basée sur le mot et les caractères (2,3 et 4) et ensuite on a comparé les résultats dans le but de savoir les valeurs optimales. Le choix optimal que nous avons trouvé était pour N égale à trois caractères. D'autre part nous avons étudié la performance d'une classification supervisée et non supervisée des documents arabes en utilisant la méthode N-gramme. Nous avons trouvé que cette méthode n'a pas donné de bons résultats. L'apport principal de cette thèse est l'exploitation des méthodes qui nous aident à accéder au contenu arabe en général et spécifiquement sur le web. Suite à l'insuffisance des méthodes d'indexation utilisées actuelles par les moteurs de recherche, il nous a paru que l'indexation qui utilise des méthodes statistiques ou distributionnelles et qui sont indépendantes de la langue, est meilleure que l'approche de "keyword matching". Mais pour une meilleure performance il s'avère indispensable d adopter une approche linguistique qui utilise un thésaurus ou une ontologie de la langue. Nous nous orientons vers une approche mixte intégrant à la fois des caractéristiques linguistiques et structurelles des documents.This thesis is to be set into the general cadre of information retrieving especially in the indexing methods and approaches of documents. We have studied, identified and explained the limitations and the problems of Arabic texts retrieving in the general search engines using "keyword matching" (Google, Yahoo, and Idrisi). We have made many experiments on Arabic documents from the Lebanese official journal. We have calculated the recall and the precision of our search experiments and then we have compared the results in order to realize the limitations of this method. These experiments have confirmed that the specificity of Arabic language has left the "keyword matching" method inadequate. In addition to, we have used a pure statistical indexing method as N-gram method. We have developed a software using VB.Net that permits us to take different indexing methods and formulas and apply them on the test corpus (Database). We have used the N-Gram as a representation method, based on word and characters (2, 3, and 4) and then we have compared the results in order to determine the optimal values. Furthermore, we have studied the performance of supervised and unsupervised classification of Arabic documents using the N-gram method, but this study has not given any good results. The essential aim of this thesis is the exploitation of methods that help us access the Arabic content in general and specifically on the web. Because of the insufficiency of indexing methods used actually by search engines, we have concluded that indexing using statistical and distributional methods which are language-independent, is better than the "keyword matching" approach. But for more efficiency, it is indispensable to adopt a linguistic approach that uses a thesaurus or ontology for the language. Also, we have to think about a mixed approach integrating linguistic and structural characteristics of documents.ST DENIS-BU PARIS8 (930662101) / SudocSudocFranceF
    corecore